「AIが強力にサポート!データ分析・ML系サービスアップデート」というタイトルでCM re:Growth 2023 OSAKAに登壇しました #AWSreInvent #cmregrowth
データアナリティクス事業本部 機械学習チームの鈴木です。
2023/12/11に開催された『#AWSreInvent ふりかえり勉強会 CM re:Growth 2023 OSAKA』にて『AIが強力にサポート!データ分析・ML系サービスアップデート』というタイトルで発表しました。
今年は確実に生成系AIが一つの流行だったと思いますが、AWSのアナリティクス系サービスのアップデートにも生成系AIおよび機械学習のエンジンを搭載することによるものが多数発表されました。
ではそのアップデートでどのような課題を解決したいのか考えたときに、どうしても人手がかかってしまう日々のデータにまつわる業務に対して、生成系AI・機械学習アルゴリズムを使ってとても積極的にアプローチしているのだなと思ったので、これらのアップデートについてご紹介しました。
発表資料
特に生成系AI・機械学習アルゴリズムを利用した以下の4つのアップデートについてご紹介しました。
ポイント
1. アップデートがどのような課題を解決したと考えているか
今回紹介するアップデートがどんな課題に対して効果がありそうかイメージが掴めるよう、データ活用にまつわる悩みごとをご紹介しました。
- ある日突然、昨日まで普通に動いていたデータ連携パイプラインに異常が現れる(データソースの仕様変更によるもの)
- 手動の作業が必要(データカタログの充実を例に)
- データの分析にノウハウが必要(SQL・Pythonのコードについて、APIに関する知見が必要)
一つ一つの内容はそこまで大したことはないのですが、データ活用の場合は物力が多いことが多く(例:100テーブルあるなど)、こういった些細な内容が積み重なると組織全体での施策の大きな障害になると考えています。
ただし、これを解決しようとなると、「頑張ってカタログにメタデータをつける」とか「チームの誰かがSQLを勉強する」といった解決策になりがちです。もちろんやれるならやったほうがいいのですが、特にデータを作っている個々のチームでは必ずしもメンバーがデータ活用のための役割を持っている訳ではないので、なかなか対応が進まないというのが実際のところよくある状況なのではないかと考えています。
2. テキストによるクエリや分析用スクリプトの生成
Amazon Q generative SQLによる分析クエリ支援(プレビュー)と、Amazon SageMaker CanvasのChat for data prepをご紹介しました。
プレビュー提供のAmazon Q generative SQLによる分析クエリ支援では、クエリエディタv2上で接続したデータベースに対して特に何も設定しなくても、チャットで分析したい内容を質問すれば分析用のSQLを生成してくれます。
Amazon SageMaker CanvasのChat for data prepでも、SageMaker Canvasのflowの画面で、チャットにより分析や変換の内容を生成することができるようになりました。
私は分析用のSQLとPythonスクリプトは結構な頻度で書きますが、数日あいだが開くと意外と「あれっ、これってどう書くんだっけ?」と思ってネットで調べたりすることがあるので、質問すれば回答してくれるのはコードが書けても大変便利です。また、書き方が分かっていても、考えているロジックをコードに表現するのは結構体力を使ってしまう性格なので、思ったことを言葉にすればコードに変換してくれるなら、その分結果の確認や考察にパワーを使えるのでとても効率が上がります。
もちろん、コードを書かない人が自然言語で扱えるようになるというのも大きなポイントです。
3. 異常検知と分析ルールの生成
AWS Glue Data Qualityの機械学習による異常検出と動的ルールの提案について紹介しました。
データ品質の担保は非常に重要なことです。例えば、組織のポリシーによってはデータカタログにデータを公開する際には守るべきデータ品質の基準を提示しているかもしれません。この基準に違反した場合、データを提供するわけにはいけないので、データコンシューマーは品質が直るまではデータを使うことができなくなってしまいます。これは日次連携のときなどは結構大変で、朝出勤したらその日は半日はその対応をしないといけなくなったりします。
このアップデートでは、過去の推移の表示と新しいルールの提案をしてくれるため、障害対応の方針や暫定策・恒久策の立案がとてもやりやすくなります。特に運用作業を担当している方にはとても嬉しいアップデートだと思います。
内容はniinoさんが執筆した以下のブログを参考にしています。より詳細に出力の使い方がイメージできるのでぜひご確認ください。(スライド中の画像もお願いして貸してもらいました。)
4. データカタログの説明の生成
Amazon DataZoneの生成系AIベースのビジネスデータカタログ強化のための機能をご紹介しました。
ビジネスデータカタログの充実は組織のデータ活用において非常に重要です。データコンシューマーは自分のデータ活用のためにビジネスデータカタログに記載されている内容を参考にデータを選び、自分のデータに統合して分析に活用します。
つまり、適切なデータ活用を行うためには十分に詳しい説明をデータカタログにつけておく必要がある訳ですが、ではその情報を誰がつけるかというと、最終的にはそのデータに詳しいメンバーが頑張って自分でつけることになります。一方で、データに本当に詳しいメンバーは必ずしもデータカタログ充実のための役割を持っている訳ではないため、忙しい中時間をとって作業をしてもらう必要があるかもしれません。
データカタログ管理者は、データに詳しい人にお願いしてデータカタログを作ってもらわないといけず、データに詳しい人はなんとか時間を作ってカタログを充実させないといけないという、なかなか前向きにはデータカタログが充実しない状況が一般的なところだったのかなと考えています。
このアップデートでは、生成系AIベースでビジネスデータカタログに掲載する各種説明を自動生成してくれるため、カタログ充実をお願いする側は「途中まで書いてあるので手直しをお願いできますか」と依頼でき、データに詳しい人は「途中まで書いてくれているからちょっと直してみるか」という気持ちになりやすいので、データカタログ充実に向けて前向きになりやすい状態になりやすくなったのではないかと思います。
この機能は各種説明を自動生成するということにより、かなり根深いデータカタログの課題にアプローチしたとても良いアップデートなのではないかと個人的には思っています……!
なお、私は試せていないのですが、このアップデートにはデータコンシューマーがデータを容易に発見するための機能も含まれているようです。
最後に
『#AWSreInvent ふりかえり勉強会 CM re:Growth 2023 OSAKA』にて発表したre:Invent2023のアップデートのご紹介でした。
参考になりましたら幸いです。
ほかのアナリティクス・ML系の発表
ほかのオフィスで開催されたCM re:Growth 2023で、データアナリティクス事業本部のメンバーが発表した資料も公開されていましたので記載します。